Generative echo chamber: Effects of LLM-powered search systems on diverse information seeking

Abstract

Large language models (LLMs) powered conversational search systems have already been used by hundreds of millions of people, and are believed to bring many benefits over conventional search. However, while decades of research and public discourse interrogated the risk of search systems in increasing selective exposure and creating echo chambers — limiting exposure to diverse opinions and leading to opinion polarization, little is known about such a risk of LLM-powered conversational search. We conduct two experiments to investigate: 1) whether and how LLM-powered conversational search increases selective exposure compared to conventional search; 2) whether and how LLMs with opinion biases that either reinforce or challenge the user’s view change the effect. Overall, we found that participants engaged in more biased information querying with LLM-powered conversational search, and an opinionated LLM reinforcing their views exacerbated this bias. These results present critical implications for the development of LLMs and conversational search systems, and the policy governing these technologies.

dl.acm.org/doi/10.1145/3613904.3642459

1. Introduction

다양한 관점에 노출되어야…

  • (개인) 비판적 사고가 가능하고, 균형잡힌 관점을 형성할 수 있으며, 올바른 정보에 기반한 의사결정을 할 수 있음
  • (집단) 의견 극화(opinion polarization) 또는 극단화(radicalization)를 막을 수 있음

하지만…

  • 인간에겐 선택적 노출, 확증 편향 등의 내재적 경향이 있음
  • 개인화 알고리즘에 의한 필터 버블로 인해 사상적/문화적으로 고립
  • 소셜 미디어에서 비슷한 사람끼리 친구를 맺으며 에코챔버를 형성

LLM:

  • LLM은 사용자가 기대하는 방향에 부합하는 대답을 하는 경향이 있음
  • 반면, 학습한 방대한 문서를 요약하도록 지시하는 식으로 사용자를 다양한 정보에 노출시킬 가능성도 있음
  • 자연어로 대화하는 방식이 인간의 정보 탐색 행동information seeking behavior에 변화를 줄 가능성도 있음
  • 사전학습 데이터의 편향, 미세조정 데이터의 편향, 프롬프트의 편향 등 다양한 편향이 개입될 수 있으며, 이러한 편향이 사용자의 의견 형성에 영향을 줄 소지가 있음

연구:

  • 2023년, Microsoft Bing Chat이나 Google Bard 등이 대중에 공개. 본 연구는 이런 시스템이 에코챔버 효과를 강화하는지를 살펴봄
  • 연구 1. LLM 기반 대화형 검색이 전통적 검색에 비해 선택적 노출을 더 유도하나? 만약 그렇다면 어떤 식으로?
  • 연구 2. LLM이 편향된 의견을 제시할 경우, 사용자의 기존 의견에 영향을 주나? 만약 그렇다면 어떤 식으로?

2. Related Work

2.1. Selective exposure, confirmation bias, and echo chamber effect

편향에 대한 연구들:

  • 선택적 노출 편향: 본인의 견해에 부합하는 정보에 더 이끌리는 경향성
  • 확증 편향: 본인의 견해에 부합하는 정보를 더 적극적으로 찾거나 그러한 정보에 더 높은 가중치를 부여하는 경향성
  • 에코챔버: 특정 믿음이나 사상을 강화하는 정보에 노출되기 쉬운 환경 또는 격리된 집단
  • 필터 버블: 개인화 알고리즘, 추천 알고리즘, 소셜 미디어의 편향된 친구 관계 등으로 인해 사용자가 다양한 의견에 노출되지 못하는 현상

위 편향을 막기 위한 연구들도 존재.

2.2. Human-LM Interaction

LLM을 활용하는 다양한 시스템에 대한 HCI 연구가 매우 활발:

  • 프로그램 소스 코드 생성, 다양한 글쓰기 지원 도구, 문서 요약, 문서 재작성, 챗봇, 소셜 에이전트 등

LLM의 부정적 영향에 대한 연구도 다양:

  • LLM에 지나치게 의존하기
  • LLM이 제공한 답변에 안주하기
  • LLM에 의한 잠재적 설득latent persuasion: 사용자가 LLM이 제시하는 편향된 의견에 영향을 받는 현상

2.3. Conversational Search

(생략)

3. Study 1 Method: Comparing Effects of LLM-Powered Conversational Search and Web Search

LLM 기반 대화형 검색 시스템이 사용자의 선택적 검색 행위를 더 유도하는지, 이를 통해 의견 극화를 심화하는지 알아보기.

세 시스템을 비교:

  • 전통적 웹 검색 (WebSearch)
  • LLM 기반 대화형 검색 (ConvSearch)
  • LLM 기반 대화형 검색+출처 링크 (ConvSearchRef)

3.1. Study Procedure

사전 설문:

  • 피험자를 세 가지 주제 중 하나에 임의 할당:
    • 정부가 보편 건강 보험을 제공해야할까?
    • 보호도시에 연방 재정을 투입해야할까?
    • 학자금 대출을 탕감해줄까, 개인파산신청을 하게 할까?
  • 주제 선정 기준: 논쟁적인 주제일 것(그래야 다양한 입장이 존재할 수 있으므로), 대중적으로 잘 알려진 주제일 것(그래야 기존 입장이 있을 것이므로), 충분히 복잡한 주제일 것(그래야 검색을 해볼 여지가 있으므로)
  • 대화형 AI(시리, 챗GPT 등) 사용 경험?
  • 주어진 주제에 얼마나 익숙한지, 어떤 입장인지?

본 과업:

  • 피험자를 세 가지 검색 시스템(closed-world) 중 하나에 임의 할당
  • 최소 3회 이상 검색을 하도록 함
  • 해당 주제에 짧은 에세이(50-100 단어)를 작성하도록 함

사후 설문:

  • 주어진 주제에 얼마나 익숙한지, 어떤 입장인지? (재질문)
  • 사전 설문에서 밝힌 피험자의 입장에 부합하는 글과 부합하지 않는 글을 각각 임의의 순서로 제시
  • 각 글에 대하여 동의 정도, 신뢰 정도, 극단성 정도를 평가하도록 함
  • 전반적인 사용 경험은?
  • 인구통계정보 수집

3.2. Experiment Apparatus

사전에 선별된 문서들 안에서만 작동하는 닫힌 시스템.

  • 전통적 웹 검색 (WebSearch)
  • LLM 기반 대화형 검색 (ConvSearch)
  • LLM 기반 대화형 검색+출처 링크 (ConvSearchRef)

3.3. Measurements

두 가지를 측정:

  • 과업 중 본인의 의견에 부합하는 방향의 선택적 질의를 했는지? 391개 질의를 손으로 분류: 조화, 부조화, 중립, 해당없음. 20% 임의 추출하여 두 명이 독립 코딩한 결과, Cohen’s Kappa=0.92. 불일치 해소 후 한 명이 나머지 모두 코딩함.
  • 과업 수행 후 의견 극화가 일어났는지?
    • Confirmatory Attitude Change = | 사전 자가보고 점수 - 사후 자가보고 점수 | (6점 리커트)
    • Confirmatory Arguments = 에세이의 각 문장(749개)을 손으로 코딩(조화, 부조화, 중립, 해당없음) 후 “조화” 비율을 구하고(Cohen’s Kappa=0.95), 이 값과 사전 자가보고 점수의 차이를 계산.
    • Confirmatory Agreement = 사후 설문에서 입장에 부합하는 글에 대한 동의 점수(5점 리커트) - 반대되는 글에 대한 동의 점수(5점 리커트)
    • Confirmatory Trust = 위와 동일. 단 “이 글을 신뢰한다”에 대한 점수.
    • Confirmatory Extremeness = 위와 동일. 단 “위 글의 입장이 극단적이다”에 대한 점수.

기타 변수:

  • Perceived bias: 중립적 시스템을 제공하는 게 의도였으므로 중립적이라고 인식했는지도 조사. “시스템이 내 입장에 반하는 방향으로 편향되었다고 느낀다”, “시스템이 내 입장에 부합하는 방향으로 편향되었다고 느낀다” 각각에 대해 5점 리커트. 후자의 inverse를 전자와 평균.
  • Familiarity change: 검색 이용 후 주제에 대해 더 잘 알게 되었는지 평가. 사전 자가보고 점수(5점 리커트) - 사후 자가보고 점수

통제 변수:

  • Prior expereince with Conv AI: 대화형 AI에가 유용하다고 여기는지, 만족스러운지 등
  • 기본 인구통계정보: 연령, 젠더, 교육수준, 소득

3.4. Hypotheses

  • H1: 웹 검색 대비 대화형 검색에서 더 많은 순응적 질의를 한다.
  • H2: 웹 검색 대비 대화형 검색 후 더 많은 순응적 입장 변화를 일으킨다.
  • H3: 웹 검색 대비 대화형 검색 후 더 순응적인 에세이를 쓴다.
  • H4: 웹 검색 대비 대화형 검색 후 순응적 동의 점수가 더 높아진다.
  • H5: 웹 검색 대비 대화형 검색 후 순응적 신뢰 점수가 더 높아진다.
  • H6: 웹 검색 대비 대화형 검색 후 순응적 극단성 점수가 더 낮아진다.

3.5. Analysis Plan

(생략)

3.6. Participants Overview

(생략)

4. Study 1 Results

4.1. Manipulation Checks

시스템이 정말 중립적이었나 (Mean = 3.15, SD = 0.55)

시스템이 유용했나? (Pre-search: Mean = 3.34, SD = 1.10; Post-search: Mean = 3.86, SD = 0.87)

기타: 평균 20분이나 사용, 세션 당 3.4회 질의를 함

결론: 의도대로 잘 된 것 같음.

4.2. Conversational Search Induced Higher Level of Confirmatory Information Querying (H1 Confirmed)

  • ✅ H1: 웹 검색 대비 대화형 검색에서 더 많은 순응적 질의를 한다. (검색 중 유도 질문을 함. “X의 장점은?”)

4.3. Conversational Search Induced A Higher Degree of Opinion Polarization (H2-6 Partially Confirmed)

  • ❌ H2: 웹 검색 대비 대화형 검색 후 더 많은 순응적 입장 변화를 일으킨다. (검색 후 입장이 전보다 강화됨)
  • ❌ H3: 웹 검색 대비 대화형 검색 후 더 순응적인 에세이를 쓴다. (입장을 강하게 드러내는 글을 씀)
  • ✅ H4: 웹 검색 대비 대화형 검색 후 순응적 동의 점수가 더 높아진다. (입장에 부합하는 글에 강하게 동의함)
  • ✅ H5: 웹 검색 대비 대화형 검색 후 순응적 신뢰 점수가 더 높아진다. (입장에 부합하는 글을 강하게 신뢰함)
  • ❌ H6: 웹 검색 대비 대화형 검색 후 순응적 극단성 점수가 더 낮아진다. (입장에 부합하는 글이 당연하게 여김)

4.4. Study 1: Result Summary

(생략)

5. Study 2 Method: Effects of Opinionated LLM-Powered Conversational Search Systems

5.1. Study Procedure

5.2. Configuring Opinionated LLM-Powered Conversational Search Systems

5.3. Hypotheses

5.4. Analysis Plan

5.5. Participants Overview

6. Study 2 Results

6.1. Manipulation Checks

6.2. Consonant Conversational Search Induced Higher Level of Confirmatory Information Seeking (H1.a Supported; H1.b Not Supported)

의견에 부합하는 방향으로 편향된 시스템은…

  • ✅ 순응적 정보 탐색을 야기한다.

의견에 반대되는 방향으로 편향된 시스템은…

  • ❌ 순응적 정보 탐색을 억제한다.

6.3. Consonant Conversational Search Induced Higher-level of Opinion Polarization (H2.a-6.a Mostly Supported; H2.b-6b Mostly Not Supported)

의견에 부합하는 방향으로 편향된 시스템은…

  • ✅ 더 많은 순응적 입장 변화를 일으킨다.
  • ✅ 더 순응적인 에세이를 쓰게 한다.
  • ✅ 순응적 동의 점수를 더 높인다.
  • 🤔 순응적 신뢰 점수를 더 높인다.
  • 🤔 순응적 극단성 점수를 더 높인다.

의견에 반대되는 방향으로 편향된 시스템은…

  • ❌ 더 적은 순응적 입장 변화를 일으킨다.
  • 🤔 덜 순응적인 에세이를 쓰게 한다.
  • ✅ 순응적 동의 점수를 더 낮춘다.
  • ❌ 순응적 신뢰 점수를 더 낮춘다.
  • ❌ 순응적 극단성 점수를 더 낮춘다.

6.4. Study 4: Result Summary

7. Discussion

요약:

  • LLM 기반 대화형 검색 시스템은, 심지어 중립적인 경우에도, 사용자의 편향적 행동을 야기하며, 그 결과로 일정 부분 의견 극화를 야기함. (연구 1)
  • 시스템이 사용자의 입장을 강화하는 방향으로 편향된 경우, 이러한 현상은 더 강해짐. 그런데, 사용자의 입장에 반대되는 방향으로 편향된 시스템은 사용자에게 미치는 영향이 적었음. (연구 2)
  • 즉 사용자는 대체로 답정너이며 대화형 시스템은 그런 성향을 강화.

왜 그럴까?

  • 추측 1. 기존에는 키워드만 입력했다면(“학자금 대출, 탕감”), 대화형 시스템에서는 주절주절 말을 함(“솔직히 학비가 너무 비싼거 아닌가? 학비 자체를 낮출 생각은 안하고 대출을 탕감해준다는 게 말이 돼? 어떻게 생각해?”)
  • 추측 2. 대화형 인터랙션은 좀 더 사회적 인터랙션과 닮아 있음. LLM이 본인의 입장에 동조하는 반응을 하는 경우에 특히 더 사람처럼 대할 것. (“그래, 내 말이. 그거랑 관련된 정보를 더 알려주라.”)

링크 클릭 vs. 요약

  • 전통적 웹 검색의 경우 검색 결과가 중립적이어도 사람들이 편향되게 링크를 클릭.
  • 대화형 검색의 경우 (시스템이 중립적이라면) 양쪽 입장을 고르게 보여줄테니 (이론적으로는) 편향을 줄여줄 수 있을 것. 하지만 (현실에서는) 본인의 입장에 부합되는 텍스트를 더 상세히 읽고 거기에 더 가중치를 둘 것. (실제로 부합되는 텍스트를 읽을 때 더 오랜 시간을 보냈음)
  • 대화형 검색 시스템에서의 정보 소비 행태를 더 자세히 분석하려면 아이 트래킹 등을 포함하여 다양한 후속 연구가 필요.

편향을 줄이려면?

  • 사용자의 입장에 반대되는 방향으로 편향된 응답을 주는 방식은 효과가 적었음. 다른 종류의 디자인적 개입이 필요.
  • Liao et al.은 몇 가지 대안을 제시. 예: 반대되는 글을 보여주면서 이 글의 높은 신뢰성, 이 글에 담긴 새로운 정보 등을 강조하여 사용자의 방어 메커니즘(“이 글은 신뢰할 수 없는 사람이 썼겠지”, “이 글을 읽어봤자 새로 배울만한 내용은 없겠지”)을 무력화하기.
  • 본 연구의 시스템은 사용자의 능동적 정보 탐색 행동을 가정하고 있었음. 하지만 에이전트 기반 시스템을 잘 활용하면 다른 접근도 가능할 것. 예: 사용자가 굳이 뭘 하지 않아도 사용자의 입장에 반대되는 정보를 에이전트가 능동적으로 알려주기.

출처를 줘도 안누르더라

  • ConvSearchRef 시스템에 할당된 참여자는 링크를 거의 누르지 않았음(M = 0.43, SD = 1.13).
  • LLM이 헛소리를 자주 하는 경향이 있음을 고려할 때 이는 심각한 현상. (LLM은 헛소리를 하고, 헛소리를 없앨 방법은 아직 못찾았고, 사람들은 출처를 줘봤자 눌러보지도 않고 그냥 헛소리를 믿게 될 것)

8. Conclusion

  • LLM이 갑자기 대박나서 엄청 많은 사람이 사용 중.
  • 그런데 LLM 기반 대화형 검색 시스템은 1) 시스템이 중립적이라도 사용자의 편향적 행동을 야기하는 경향이 있고, 2) 시스템에 편향이 있는 경우 그러한 행동을 더 강화함.
  • 매우 심각한 상황이며 대책이 필요.

2025 © ak